Práctica 8: corpora and collocations

Ejercicio: completar el siguiente Notebook. Añadir celdas adicionales para pasos intermedios y mostrar los resultados intermedios. Podéis añadir celdas de tipo "Markdown" para dejar comentarios.


In [2]:
import nltk
#nltk.download('book')

Distribución de part-of-speech

Cuando trabajamos con el corpus Brown podemos usar brown.tagged_words() para obtener el texto anotado con etiquetas morfosintácticas.

1. ¿Cuáles son las 30 etiquetas más frecuentes en el corpus?


In [ ]:

2. Haz un gráfico con las frecuencias de las 20 etiquetas más frecuentes


In [ ]:

3. Crea la lista de bigramas de etiquetas del corpus Brown


In [ ]:

4. ¿Cuáles son las secuencias de etiquetas más frecuentes (lista y gráfico)?


In [ ]:

Ranking y métricas

5. ¿Cuáles son las palabras que más frecuentemente preceden la palabra "water"?


In [ ]:

6. ¿Y cuáles tienen la asociación más fuerte según la métrica likelihood_ratio (y aparecen un mínimo de 5 veces delante de "water")?


In [ ]:

7. ¿Y qué adjetivos tienen la asociación más fuerte?


In [ ]: